Op deze pagina vind je een demonstratie van een statistische techniek aan de hand van een voorbeeld.
Meer informatie over hoe je deze pagina kan gebruiken vind je in deze handleiding.
De analyse gebeurt met behulp van R en RStudio. Een inleiding tot deze software vind je hier.
De bedoeling is om informatie te verkrijgen over de dataset: hoeveel data zit erin? Hoeveel variabelen en hoeveel observaties zijn er? Welke soorten variabelen? Zijn er ontbrekende data?
De dataset enquete
bevat gegevens van 14 variabelen geobserveerd bij 42 Amerikaanse studenten die een vak statistiek volgen.
Deze dataset kan je inladen met read.csv()
. De data kan je best meteen in een object enquete
onderbrengen zodat je die later makkelijk opnieuw kan oproepen.
enquete <- read.csv("https://statlas.ugent.be/datasets/enquete.csv")
In R bestaan veel verschillende soorten objecten. Voorbeelden zijn vectoren, dataframes, lists en matrices.
Data die van buitenaf worden geïmporteerd komen vaak als dataframe in R terecht - zoals in dit geval enquete
. Je kan het type object opvragen met class()
.
class(enquete)
[1] "data.frame"
Een dataset in de vorm van een dataframe is in veel gevallen ideaal: het is de meest overzichtelijke en handige manier om met data aan de slag te gaan in R.
De omvang van een dataset, als die netjes in een dataframe vervat zit, kan je makkelijk opvragen met de functie dim()
.
dim(enquete)
[1] 42 14
Het eerste getal in de output slaat op het aantal rijen, dus in dit geval op het aantal bevraagde studenten. Je kan dit apart selecteren met dim(enquete)[1]
.
Het tweede getal gaat over het aantal variabelen dat geobserveerd werd. Met dim(enquete)[2]
kan je deze waarde apart opvragen.
Met str()
krijg je een overzicht van de variabelen in de dataset. Er staat telkens ook bij om welk type data het gaat: chr
, num
, int
, enz.
str(enquete)
'data.frame': 42 obs. of 14 variables:
$ X : int 1 2 3 4 5 6 7 8 9 10 ...
$ Section : int 1 1 1 1 1 1 1 1 1 1 ...
$ Class : chr "Senior" "Freshman" "Freshman" "Freshman" ...
$ Sex : chr "F" "F" "F" "M" ...
$ Distance : int 400 450 3000 100 2000 500 1100 1000 400 450 ...
$ Height : int 62 61 61 72 69 73 60 71 70 75 ...
$ Handedness : chr "Right" "Left" "Right" "Right" ...
$ Coins : num 1.12 29 1.5 0.07 0.12 8 0.77 0 0 0 ...
$ WhiteString: int 42 45 22 40 48 30 50 45 38 36 ...
$ BlackString: int 6 5 4 4 7 8 0 6 0 12 ...
$ Reading : num 80 100 100 50 200 100 200 100 100 100 ...
$ TV : num 3 10 4 25 5 0 2 2 20 20 ...
$ Pulse : int 71 78 80 63 63 56 72 66 54 48 ...
$ Texting : int 3 100 2 200 100 1 50 30 40 25 ...
Mogelijk heeft niet elke bevraagde student op elke vraag van de enquête geantwoord. Dan zullen er in je dataset ontbrekende gegevens (in het Engels: “missing data”) te vinden zijn. In R krijgen die een specifieke waarde, namelijk NA
.
De functie is.na()
laat je toe om op zoek te gaan naar ontbrekende gegevens in je dataset.
Meer informatie over ontbrekende data vind je via deze link.